Think Stats 第2版 ―プログラマのための統計入門
https://gyazo.com/52ccc46a0f440f36eb455c30db18adc6
探索的データ解析
プロセス
インポートとクリーニング
単一変数での探索
ペアワイズ探索
多変量解析
推定と仮説検定
可視化
コンピュータ、特にpythonでやっていく
メリット
pythonで読みやすく実行可能なコードとしてアイデアを書ける
コードの利点として、理解したことをコードに表現でき、修正できる
数学的には難しくても、コードを動かすと理解しやすいことがある
p値
情報源
全米世帯動向調査 NSFG
疫病管理予防センター CDCによる、健康問題に関する調査
行動危険因子サーベイ位ランスシステム
米国国税庁
米国国勢調査
ボストンマラソン
wikipedia
すべてpython2,3で動くらしい
使うパッケージ
pandas
numpy
scipy
StatsModels
回帰その他
matplotlib
anacondaで入れるのをおすすめ
目次
分布確率質量関数
累積分布関数
分布をモデル化する
確率密度関数
変数間の関係
推定
仮説検定
線形最小二乗法
回帰
時系列分析
生存分析
統計解析手法
githubのやつ
$ python code/nsfg.py
ではなく
$ cd code && python nsfg.py
どうして
オブジェクト指向プログラミングは分かってるとして、ライブラリを紹介すると書いてあるが、これだけみてpandasとか全然わからんと思うmiyamonz.icon